Praca Domowa 2

Bartosz Siński Winiarze

W poniższej pracy domowej wyliczymy dekompozycję predykcji modelu dla wybranych obserwacji korzystając z narzędzia LIME. Sprawdzimy także, czy potwierdzają się nasze wnioski z poprzedniej pracy domowej, dotyczące zmiennych najbardziej wpływających na predykcje naszego modelu.

Przygotowanie danych, modelu i explainera

Dekompozycja predykcji modelu dla wybranej obserwacji

Widzimy, że dla wybranej przez nas obserwacji model z bardzo dużym prawdopodobieństwem zaliczył wino do dobrych. Większość zmiennych pozytywnie wpływała na predykcje modelu. Największe znaczenie dla danej obserwacji ma alkohol, który jak wiemy z eskploracji danych jest najlepiej skorelowaną zmienną z naszym targetem. Wartość alkoholu 11.9 jest jak na nasz zbiór wysoka (trzeci kwartyl to 11.1), a wartość kwasowości lotnej (volatile acidity) bardzo niska (pierwszy kwartyl to 0.39). Tłumaczy to duży wpływ tych zmiennych na naszą predykcje.

Dekompozaycja predykcji modelu dla różnych obserwacji

Przy badaniu kolejnych obserwacji interesować nas będzie, czy prawdopodobieństwo określenia zmiennej przewidywanej jest tak samo wysokie jak przy wcześniej badanej obserwacji. Spojrzymy także na zmienne, które mają największy wpływ na predykcje.

Na początku badamy obserwacje dla których nasz model poprawnie zaklasyfikował wartość targetu. Widzimy, że w wybranych obserwacjach model z dużą pewnością klasyfikował zmienne celu. Prawdopodobieństwo z jakim wskazywał poprawną wartość wynosiło średnio 0.9. We wszystkich obserwacjach alkohol miał największy wpływ na predykcje modelu i tylko w trzeciej obserwacji miał negatywny wpływ. Dodatkowo ważnymi zmiennymi były zawartość dwutlenku siarki (total sulfur dioxide), zawartość siarczynów (sulphates) i kwasowośc lotna (volatile acidity).

Następnie mamy obserwacje, gdzie model źle przewidział wartość zmiennej celu. Prawdopodobieństwo było przy tym prawie jednakowe dla obu możliwych wartości targetu. Świadczy to dobrze o naszym modelu, ponieważ nie przypisuje dużych prawdopodobieństw złym wartościom. Na pierwszą obserwacje pozytywnie wpłyneła bardzo wysoka zawartośc alkoholu i siarczynów, więc pomimo tego, że większośc zmiennych wskayzwała, że wino jest złe, zostało ono uznane za dobre. W drugiej obserwacji wpływy poszczególnych zmiennych były w większości małe oraz było dużo zmiennych zarówno o wpływie negatywnym jak i pozytywnym. Ciężko jest więc stwierdzić co dokładnie wpłyneło na niewłaściwą predykcje naszego modelu.